简悦 | 用逆向思维收集大量被忽略的声音

前段时间通过生财有术的朋友看到了亦仁星主早期的一篇文章：

文章写的很好，我相信很多人看了之后，在明明还没有实操执行的情况下依然会觉得是一篇好文章，但是：好在哪？

文章使用的方式为什么会看起来就觉得一定是行之有效的？

这个问题先搁置，我们再思考一个问题，很多人做 SEO、SEM、研究关键词，分析用户需求，都会到各种工具或平台上拓展长尾词，期望挖掘更多的需求信息。

挖掘的方式都是：给定一个核心词根，然后拓展更多包含该词根的长尾词！

比如我们想挖掘跟 "引流" 有关的长尾词有哪些，于是在 5118 上：

问题来了，无论什么工具，能拓展出来的词都必定是包含 "引流" 这个词的，诚然，这是为了保证相关性，可事实上这会带来一些问题。

上图的这三个词，是手术相关的，对于从事网络营销的我们来说，显然是不需要的。

其次，与 "引流" 有关的需求，与 "引流" 有关的词，或者涉及 "引流" 这个领域的内容，就一定包含 "引流" 这两个字吗？

以上 5 个长尾词，背后所涉及的问题毫无疑问都是 "引流" 方面的，可是没有一个包含 "引流" 这个词根。

可想而知，如果我们准备通过传统工具拓展关键词去分析 "引流" 这个领域存在什么需求，很显然会有很大一部分 "声音" 被我们忽略掉。

有趣的是，也只有我们业内人员在遇到引流问题时会经常输入跟 "引流" 有关的字眼，然而绝大多数用户并非互联网人员，他们根本不知道 "引流" 这个概念，他们会写出来的需求描述往往是基于他们自身常识和当下情况，而这些词才是最具价值且最能体现需求本质的。

什么方式可以把某个领域所涉及的需求尽可能都提取出来，无论用户是怎么表达的？

靠常规的关键词拓展工具很显然不行，而且有做过 SEO 的朋友应该知道，用户自发输入的长尾词千奇百怪，早期从网站日志里或站长平台里总是能发现各种想象不到的词，毫无规律。

目前我没有发现这方面比较好用的工具，靠想象？不是不可以，但是想象力毕竟有限，有没有更加科学一点的？

回到刚才亦仁那篇文章的问题：文章使用的方式为什么会看起来就觉得一定是行之有效的？

"相关搜索" 是搜索引擎根据用户当前输入的关键词在后台计算之后展示给用户的相关推荐，它一般是用户搜索某个长尾词后对结果不满意而又再次搜索的词。

站在搜索引擎的角度来看，这些再次搜索的词可能往往满足了大多数用户的需求才会被推荐出来，意思是你当下搜索的不满意，那我建议你试试这些词，因为根据我们的数据分析，很多人通过这些词找到了答案。

1："相关搜索" 有一定的关联性，因为它们都是围绕当前输入的词推荐的

2："相关搜索" 展示的词都是有较多人在近期搜索的，要不然没有推荐的价值

3：既然是较多人在近期搜索的，所以 "相关搜索" 有一定的时效性

4："相关搜索" 类似电商平台的 "猜你喜欢"，因此推荐的基本是长尾词

系统要先判断用户的需求才能推荐用户可能需要的，而长尾词最能体现需求。

结合以上几点，我们会发现 "相关搜索" 推荐出来的往往是一些有明确需求或目的的词，这些词会很直观的表现出用户的需求是什么，所以这就可以解释了亦仁那篇文章：

为什么能这么容易挖掘出痛点，因为在 "相关搜索" 中出现的需求往往很直观，再加上简单的搜索和比对，很快可以确定一个项目出来。

其次，既然 "相关搜索" 推荐出来的词之间有相关性，那么是不是可以用来拓展某个领域的直观需求？

这就解决了刚才的问题：什么方式可以把某个领域所涉及的需求尽可能都提取出来，无论用户是怎么表达的！

百度每次搜索一个词一般都会返回 9 个相关搜索词，程序把这 9 个词提取出来，加入到队列。

第一次我们让程序搜索 "引流"，这是母词，得到 9 个子词，加入队列后再取出，作为母词循环到百度里搜索，每一个词又得到 9 个子词，1 生 9，9 生千千万万。

图中红框的词明显都跟引流有关，特别是 "怎么让大量的人加我微信"，这完全就是 "引流" 的问题，可是它们并不包含 "引流" 这个词根，如何判断这个词跟 "引流" 有关？

使用 "词文本向量分类" 的方式显然不行，大部分词两者之间的词根词缀差别很大，要说 "语义相关"，这种相关性又相差太远，因为没有明显的标准，而且 "语义相关" 的算法需要大量的数据支撑。

图中红框的词明显不是我们需要的，即使它包含了 "引流" 这个词根，如果我们单纯以是否包含 "引流" 这个词根来判断，那这个词明显是不符合条件的，把它拿去搜索拓展：

所以如果没有科学的方法，这种拓词方式是行不通的，最终程序跑下来会偏离了方向，完全不可控。

如何在每次拓词的时候保证提取回来的长尾词和目标词涉及的都是同一领域的。

这是一道很有意思的应用题，它不考验专业能力，而是考验一个人的逆向思维能力。

其实利用 "相关搜索" 这个渠道来拓词，在我们早年做 SEO 的时候已经运用了，解决方案肯定是有的，想要解决一个问题，角度可以有很多。

现在有两个词，a：qq 一天自动引流 5 万人，b：怎么让大量的人加我微信

李彦宏先生 "超链分析" 专利的核心思想是：一个网站被一群什么样的网站链接指向，这个网站大概也是什么样的（包含权重传递）。

现实生活中，我们会认为一个人身边经常出现的朋友是什么人，这个人大概也是什么人，这其实是利用现有的分类特征来预测。

结合这种思维逆向修改一下：一个词普遍涉及什么内容，这个词大概就是什么领域。

什么地方能够体现这个词普遍涉及哪些内容并且这种相关性是足够可靠的？

如上图，尽管我把搜索框里的搜索词删掉，下面搜索结果的飘红也去掉，但是你看这些网页标题，应该也知道我搜索了什么类型的关键词。

所以简单的逻辑是：当我们搜索 a 的时候，百度给我们返回的都是些什么页面，记住这些页面，当我们再次搜索 b 的时候，百度返回给我们的页面，我们拿来跟之前的页面比对，如果这些页面有重合，那说明这两个关键词涉及的内容应该是同一个领域的。

我们事先收集跟'引流" 有关的一批大词，比如 "引流方法"，这些词有代表性且没有偏向性，不用很多，几十几百都可以，然后批量到百度里搜索，把每次搜索得到的结果页面的 URL 主域名收集起来（每次搜索可以一次性收集 50 个页面），最终我们会得到一份域名集合：

比如有几百个，把这份集合里面高频出现的域名提取出来，这些提取出来的域名作为一份 "行业域名库"，这些域名是这个行业的相关关键词在搜索时普遍会出现且排名较好的，它们具有一定的权威性。

后续每次遇到新词搜索的时候，把返回过来的结果里的域名拿来与行业域名库比对，如果这个词是行业相关词，那么搜索出来的结果中应该能出现行业域名库里的域名。

一般情况下，我们搜索一个词，在返回的 10 个结果中有 2-3 个是行业域名库里有的，那么基本可以确定这个词是相关领域的。

因为搜索引擎的搜索结果本身就是针对当前搜索词的一次页面归类，不可能我们搜索 "qq 一天自动引流 5 万人"，有几个结果是与此相关的，而有几个结果却是跟 "引流手术" 相关的。

除非我们搜索的是类似 "苹果" 这样的情况，但是这种短词也不会是我们要拓展的，一个长尾词应该是什么领域的，这种相关性的判断对于目前的搜索引擎来说是小儿科的事情。

至此，我们总算有办法解决这个棘手的问题，而且方案看起来还算可以，这样的一个方案是怎么得出来的？

首先有行业高人的分享指点，我早期也是一直在看各种大佬文章，理解人家的思路，其次也建立在自己的过往知识上，比如我之前在公众号分享的 "专利" 方面的文章，里面有提到一点：

专利描述：本申请公开了关键词的推送方法和装置。所述方法的一具体实施方式包括：获取关键词集合和文本集合，其中，所述关键词集合包括至少一个关键词，所述文本集合包括至少一个文本；确定第一关键词与所述文本集合中的各所述文本的关联度，其中，所述第一关键词为所述关键词集合中的任一关键词；确定所述文本集合中，与所述第一关键词的关联度超过预定关联度阈值的文本的比例；以及基于所述比例超过预定比例，向终端发送所述第一关键词。该实施方式实现了关键词精简且准确的推送。

我那时候还在文章里问这个专利涉及的技术可能会运用在什么领域，另外细品一下，是不是跟现在这个方案的思想有些类似？

可能你会觉得奇怪：费尽心思想尽各种思路最后仅仅只是为了挖掘 "相关搜索" 的长尾词？这个事情值得这么做吗？

首先，"相关搜索" 的价值不用怀疑，其次，眼前的一个现象是：我几乎没能找到当下有哪个成熟的平台或工具可以稳定的拓展 "相关搜索" 的长尾词，只有 5118 有这么个功能：

下拉联想词就不用看了，这个很好挖掘，百度都有现成的接口，而且实际上下拉联想的形式其实也不适合拓展更多。

我们给了 "引流" 这么一个大词，却只能拓展 46 条记录，而且依然会存在着 "引流手术" 这种似是而非的情况，如果说给定的主词不够明确，那么我们输入长尾词：

所以这个语义相关我不太清楚是基于什么，我觉得这个功能可能还需要改进，我相信 5118 也有这个能力。

至于为什么这个功能现在看起来鸡肋的放着，可能也是因为 SEO 这个行业大部分人的惯性思维，很多人刚接触的时候就被灌输着挖词、拓词的概念，前辈教他如何使用工具，如何拓展出包含目标词根的长尾词，如何去掉不相干的长尾词，导致很多人惯性的认为长尾词就是这么拓展的，所以 5118 只能侧重常规方式。

我在百度搜索 "挖掘'相关搜索'词"，几乎找不到太多相关的内容，偶尔能看到一两篇文章在讨论的，他们对于把控相关性的思路是简单粗暴的限制爬取层级。

首先收集大批长尾词，把每个长尾词拿去挖掘，每个词挖掘的层级不超过设置的次数，以此来控制相关性，这有一定道理，因为越往后确实越容易不相关。

但是这种方式就要先拓展很多长尾词，越多越好，否则其实挖掘不出多少词，而且这些作为母词的第一批词要尽量有代表性又不能有偏向性，否则容易反反复复都是这些类似的。

还有我们刚才也看到了，很多时候第一次挖掘，就有可能出现完全不相干的词，就算一开始以长尾词作为母词：

现在思路有了，我们来梳理一下具体的实操步骤以及程序的基本思路。

PS：这篇文章涉及的数据和工具都不需要付费购买，除了上面的思维讲解之外，文章的实操步骤面对的都是懂基本技术的朋友，所以以下的一些技术处理会简单带过，会技术的朋友看了懂得怎么做即可。

首先是确定我们要挖掘的领域，本次测试我选择了 "引流" 这个领域，这本身也是个有意思的行业，并且适合作为讲解，母词即："引流"。

其次我们需要批量找到这个领域比较有代表性的权威网站作为行业域名库，这个步骤常规的处理方式就是拓展一批词，批量到百度搜索并统计相关排名数据，统计的逻辑和我之前的文章 "好物推荐" 里使用的排名计算方式是一样的，早期我们就是这么做的，同时现在有现成的工具，非常适合干这个事：

5118 上的这个 "优质网站挖掘" 的功能像是完全为了这个步骤而做的：

从功能介绍来看，大致意思是：给定一个关键词根，然后点击 "智能扩展"，它会自动根据这个词根拓展 100 个长尾词，点击 "挖掘网站"，系统会综合计算这些长尾词在搜索引擎里批量搜索时：哪些网页的排名覆盖率较高，出现次数较多，并给我们显示出来。

如图我们给了 "引流"，并点击 "智能扩展"，出现了 100 个长尾词，点击 "挖掘网站"，正在解析：

这个数据里的域名和出现次数就是我们需要的，怎么拿到这份数据呢，使用导出功能要 VIP，为这么个事办 VIP 确实没必要。

这样就快速的拿到了目标数据，但是只有 50 个，这太少了，所以我们还需要重复几次这个步骤。

引流方法、引流软件、微信引流、知乎引流、……，如果想象不出来，我们可以到 5118 上搜索一下：

使用刚才同样的方式收集域名，最终汇集到一份 Excel 里，然后根据域名重复的个数来挑选。

这是不动脑筋的懒汉式方法（其实我就是这么干的），而且这种方式没有办法拿到 "出现次数" 这个数据，对于统计结果不太科学（其实也够用了），作为有技术功底的从业人员肯定很不屑这样做，所以技术的处理方式是：

2：自动化使用 5118 这个功能（Python 直接简单粗暴的使用 selenium 点击和解析）

5：最终生成一份行业域名库，库里有一批域名，每个域名对应出现次数总和

单是这样还不行，我们可以看到收集的过程中有这么一些域名：

新浪、百度、企鹅、知乎等 "流氓"，这些站点不管什么行业什么词都会有它们的身影，所以以它们作为行业域名库参与计算不具备说服力，某个词搜索后如果因为一两个刚好是百度或知乎就认为是同一领域，那很明显这个方式就废了。

因此在后期程序每次加载行业域名库的时候，要遍历每一个域名，过滤掉这些站点，可以事先定义一个排除域名库，里面这样保存：

这样就可以确保目标会被排除，这份排除域名库除了我们常见的几个大站之外，你还可以加入这类网站：

问答类、门户类、视频类、媒体类、威客类、社区论坛类等等一切自身内容可能涉及各行各业的网站，收集这份库可以应对绝大多数行业，基本是一次性工作。

域名库的问题到这里基本解决了，可以开始构建爬虫，梳理一下整体的挖掘思路（不会技术可以不看本段）：

1：循环提取队列关键词到百度搜索，提取结果页面的链接和标题。

2：将提取出的百度链接批量转化为原始 URL，提取所有原始 URL 的主域名与行业域名库比对（转化为 set 集合取交集）。

3：根据设置的阈值（一般设置 25% 左右，10 个链接 2-3 个命中即可，没有固定标准）判断是否为目标领域词，根据得到的判定选择是否提取和保存 "相关搜索" 词。

# 提取主域名

def get_domain(url):

return domain

# 转化链接

def get_url(baidu_url):

return url

# 解析提取相关搜索词

def get_new_key(result):

return new_key

# 解析提取标题和链接

def get_web_data(result):

return web_data

# 抓取搜索结果

def get_result(key):

# 搜索链接格式, rn: 10-50

search_link = 'https://www.baidu.com/s?ie=utf-8&wd=%s&rn=20' % urllib.quote(key)

return new_key,web_data

main_key = '引流'

# 所有见过关键词

seen_key = set([main_key])

# 关键词对应网页数据

key_web_data = dict()

# 异类关键词，存储被判定为非目标领域词

outcast_key = set()

# 待挖掘关键词队列

queue_key = Queue.Queue()

# 遍历所有词加入队列

for key in seen_key:

queue_key.put(key)

while qk.empty() == False:

key = qk.get()

if key in key_web_data:continue

if key in outcast_key:continue

# 抓取搜索结果

new_key,web_data = get_result(key)

# 录入新词

for nk in new_key:

if nk in seen_key:continue

sk.add(_nk)

qk.put(_nk)

# 保存对应网页数据

key_web_data[key] = web_data

# 以实际收集到的目标领域词数决定是否继续抓取

if len(key_web_data) >= 20000:break

# 存储相关数据（对程序稳定性不确定可以在此处随时存储）

# 存储相关数据

这是脚本主体流程，仅作为思路参考，细节方面如：不同判定的应对逻辑、错误处理机制等请根据实际情况修改和增加。

本次测试我大概挖掘了 8W + 个相关关键词，其中属于 "引流" 目标领域且存储了相关数据的大概 1W 左右，仅作为测试，这个应用几年前就做过了，所以它的拓展效果我大致是有数的，这是部分数据：

有意思的是，在这 1W 个 "引流" 领域的关键词中，包含 "引流" 这两个字的关键词仅仅不到 10%。

我们会看到这样的拓展，可以发现各行各业围绕 "引流" 这个问题的各种需求，在类别上有工具类的、文案类的、方法类的等等，在目标对象上可以涉及线上各类产品和线下各类实体店，既有深度的痛点也有初级的需求，白、灰、黑琳琅满目。

没有任何方法可以尽善尽美，我们偶尔也会在里面发现一些不太相关的词，比如最开始在运行的过程中由于我对行业域名库的整理比较粗糙，所以也会出现一些错误判断：

没有关系，首先如果你的域名库没有太大问题，这样的比例一定是少的，对分析影响不大，其次对于这些不太相关的词一定是行业域名库里个别域名造成的，是这个域名下有极其不相关的内容，排除一下去除即可。

关键词的分析我们也陆续讨论了几种，本篇文章最重要的是挖掘 "相关搜索" 这个思路，所以关键词分析方面不会有太多篇幅。

不过鉴于 "相关搜索" 的词的价值，下面提供几种视觉仅供参考，早期我们做 SEO 挖掘它除了多一个拓词渠道之外，更大的价值在于发现还没有合适内容的词，找到这样的词就是为了上对应的内容拿排名，现在我们用来挖掘需求，思路也是可以借鉴的。

我们观察上图的长尾词，都有一个特点，就是都包含了空格，格式基本是：

作为一名搜索引擎重度患者，在电脑前，随时都在百度和谷歌，对于这种格式的搜索词太有感觉了。

这类搜索词的背后所代表的一般都是搜索用户 "狗急跳墙" 式的检索行为。

比如微信官方没有搜索微信群的功能，某用户想通过搜索引擎找一些别人发出来的目标微信群加进去发广告，于是他搜索：

当他搜索了几次之后发现总是找不到他想要的，于是他脑筋一转，输入了以下关键词：

他认为：如果群主把群放出来让大家进，那文案里一般会出现 "二维码"，"加群"，"扫码" 这样的字眼。

然后就发现很多人每天都会在各类贴吧上发布新开的群的二维码：

这些群都是新开的，基本未满 100 人，二维码直接扫就可以进群。

在这里不是要介绍这种加群方式，实际上两三年前就有这种方式了，一天找几十个新出的群是没问题的，而且这种方式还有更多的应用，有空我再整理一份出来。

如果你经常使用搜索引擎，你总会碰到在搜索一些词的时候找不到你的目标内容，于是在多次搜索以后，你开始尝试在结尾追加一些后缀，而且通常以空格隔开，以期待找到你满意的结果。

在搜索引擎里，空格的作用等同于 "+"，作为非业内人员是不懂的，加空格是大部分人 "一厢情愿" 的做法，因为很多时候空格前后两端并不能作为一个通顺的搜索词，他认为：加了空格百度应该知道我想找的是两者结合起来的，又或者我单独空了一格之后写的三两个字百度应该要知道是重点。

这些后缀对于用户来说本质上代表着：本次搜索需求的核心，是附加的前提和条件，它们往往有直接的商业价值，比如：

17-18 年，批量的出现了很多微信二维码平台，就是因为有人看到了二维码这个需求，而微信官方又没有直接的功能，所以第三方填补了这个空白。

甭管里面的微信群质量如何，发布置顶之类的都要收费，变现方式有很多种。

这样的词占的比例是相对少的，这次的测试里，上万个词也就 500 个左右，但是能在 "相关搜索" 里挖到的，都算是很有价值的词。

亦仁之前分享的文章是使用 Google 搜索引擎，关键词是英文，英文默认是空格隔开，可能大家感觉不出来：

其实图中的词翻译过来："instagram 下载视频"，"instagram 下载图片"

里面的 instagram 是一种范围，下载是一种行为，视频或图片是对象，这都是清晰的需求。

怎么分析呢？这部分词少，没有比一个个直接看最合适的了，尝试去理解关键词背后代表的需求，挨个拿去百度搜，最好看看有没有人在做一些相关的服务。

大道至简，有价值的东西说出来往往是看上去很无语的，一听就能懂的，说出来就不值钱的，但是想破了脑袋也想不到的。

亦仁大佬之前的文章里在挖掘到痛点之后是到搜索引擎里搜索了解，寻找是否有现有产品，这个方式用来判断需求是否有商业价值，简单有效，我们现在有上万个关键词，而且也还没有确定的细分版块，那就要考虑高效一点的处理。

我们之前挖掘的时候已经保存了每个词对应的搜索结果数据，把关键词拿去与对应的搜索结果数据比对，统计下 "完全匹配数" 有多少个（关键词完整出现在标题中），同时给出关键词长度作为辅助参考。

提取关键词长度较长且 "完全匹配数" 较多的 topN 关键词（参考 "好物推荐" 文章的提取方式）。

原则上一个关键词的长度越长 (合理范围内) 同时搜索结果的 "完全匹配数" 越多，说明这是一个常态化且竞争很大的需求。

按照这个原则递推，竞争程度越来越低，即：关键词长度越短且完全匹配度越低说明竞争越小。

分析的逻辑是这样，至于要选择竞争大的还是竞争小的进一步了解，要根据个人的实际情况。

一个关键词的 "完全匹配数" 为 0，也就是一个关键词拿到百度搜索，前几页都找不到标题完整包含的，可能的原因有：

由于不可抗性的原因（比如技术手段无法做到），需求暂时还未能满足

还没有人发现这个需求（或还没有人开始），所谓的机会往往在这种地方。

如果暂时没有能力提供合适的产品或服务，可以考虑利用这些词生产对应内容来引流。

另外：我们刚才提到的带有空格的关键词，结合这个统计方式，怎么去比对，可以挖掘到什么，有什么价值，这个问题可以好好思考一下。

还有：我们通过这种形式收集的词会涉及各行各业，但都是围绕 "引流" 这个问题，完全可以使用 "词文本向量分类" 的方式把它们归纳一下，按类别来分析。

判断一个需求有没有商业价值，已经在经营的竞品能有多少利润空间，这些在我过往的文章或亦仁星主的文章里都有完整的提过，逻辑都是一样，这篇文章不再演示。

关于相关搜索的挖掘，其实无非两点：尽可能多、尽可能相关。

直接影响相关性问题的就是 "行业域名库"，在我们早期使用这种方式的时候，5118 好像才刚起步，也没有挖掘网站的功能，所以这个 "行业域名库" 的收集方式是用 "好物推荐" 这篇文章里的统计逻辑。

对比借用 5118 的功能，这个方式是最科学的，有精力的话，还是回顾一下 "好物推荐" 这篇文章的统计思路，亲自来收集这份域名库。

另外我们知道每个网站都可能会存在不同类目，不是每个网站都只涉及某个细分领域，可能某类目专门涉及运营内容，某类目专门涉及技术内容，虽然同属互联网领域，但细分起来还是不一样的版块。

如果直接使用 5118 的功能，通过主域名来判断，有可能就会存在错误判断，把涉及运营的词和涉及技术的词当成一个版块。

而通过自己计算排名得到的数据里，有完整的 URL，那就可以更深层次的按类目来判断，至于怎么做，这个问题也留给你思考。

还有我们拿来判断的是页面 URL，以此作为评判标准，除此之外一个领域还会有它特定的、经常会出现的词，是否也可以通过拆分标题来综合判断？这是完全可以的。

通过多个个体的特征来总结一个分类特征，进而通过这个分类特征来反推一个单一个体并分类，说到底是先验概率和后验概率的问题。

这类问题有非常适合的解决方案："贝叶斯算法"，其中尤以 "朴素贝叶斯" 最为便捷高效，目前普遍自媒体平台对于文章分类基本应该是使用 "贝叶斯分类器" 的逻辑。

思路和道理虽然明白，但是这里面的细节只有做了才知道，第一次尝试挖掘，效果肯定是不满意的，不过也没关系，这种挖掘方式是可以事后调优的。

如果你挖掘了一次，觉得效果不满意，可是我们前面都保存了所有历史记录，其中最重要的是每个被判断为目标领域的关键词都有对应的搜索结果数据，当你发现现有的行业域名库不足以精准判断，可以再重新收集和调整，然后利用本地的数据重新跑一次 URL 对比即可，不需要再采集一次网页。

如果你有兴趣，还可以保存被判断为异类的关键词的搜索结果数据，同时还可以保存每个词对应的相关搜索词，这里其实还有值得研究的地方。

当你使用 5118 来拓展 "引流" 这个词的时候，尽管它会给你 50W 包含 "引流" 的长尾词，可事实上是这样的：

里面包含了太多跟手术有关的词汇，常规的方式是通过一些高频词汇筛选并去除，但是太累了，更笨的方式是一个个挑选出来，如果你使用这种思路，绝对可以把这些不需要的词汇全部自动筛选出来，一个误伤都不会有，因为两者涉及的领域实在相差太大了。

从事互联网行业，能用工具解决的问题不要浪费人力，把精力放在思维上的钻研。

很多朋友应该陆续都看到我之前的一些文章，会发现我大部分文章都在挖掘需求、谈论需求、分析需求，并根据分析的结果尝试挖掘一些项目。

诚然分析需求可以帮助我们挖掘业务和商机，可这只是分析需求的其中一个应用，事实上分析需求并不一定都是为了挖掘新的业务。

可能很多朋友手上就有稳定的项目在操作，可是对于你当前的用户、客户或者目标群体，他们当中的需求你不见得都清晰，也不见得都满足了，对于这些未知的需求，你的产品或服务是否还有优化和提升的空间，我想这是分析需求最大的价值。

比起运作一个新的业务，优化现有业务所要付出的成本以及所能带来的价值，从投入产出比的角度来看，往往要大于新的业务。

我这几年干的基本都是这些事情，我会为了解决一个问题尝试各种不同的角度，可能会有朋友觉得挖个关键词我还得去学个贝叶斯算法，有这必要吗？

当然没有什么是必要的，你应该从自身出发，适合你就可以，可是如果这个尝试能找到一个别人看不到的机会，这个机会绝对够你吃好几年的，这个时候相比之下学习一个知识算得了什么。

我在几年前陆陆续续钻研这些问题的时候，只是为了做好本职工作，没有想过后面可以用来辅助我的业务，更没有想过有一天可以拿来写文章。

我想：技巧或许会过时，但思维方式不会，深耕一个领域，多考虑本质问题，时间长了总能看到价值和回报，即使是一个普普通通的关键词，你也可以玩出花来。

关键词的工作，无论分析还是整理，总是离不开分词，准确的分词离不开基础的词库。

搜狗输入法细胞词库是搜狗输入法开放下载分享的词库数据：

词库涉及日常生活的各个细分领域，可是数据格式用普通方式是打不开的，我在之前批量的把它们下载下来并转换为 TXT，同时保持了原有的分类，用于支撑平常的分词。

互联网每天都在生产大量新的词汇，其中会慢慢沉淀出一些常见词汇，尤以名词最多，往往只有名词才会不断的新增，"公众号" 被定为一个产品名称，由此就成了一个专有名词。

all_word.txt 是所有关键词，大概 300W，ids_name.txt 是所有分类对应 id，方便程序调用时可以定位关键词具体分类。

让我没想到的是搜狗词库页面的 id 居然不是唯一键值，所以部分 id 可能存在对应错误，不过无伤大雅。

300W 看起来好像不多，但是我们平常挖掘的长尾词其实都是部分词根重复组合而已，这些词大部分都是各个领域的专有名词，所以其实数据量很大了。